如何用本福特分析模型发现问题?
上周有个读者跟我说,建议在文章标题中写上分析思维模型的名称。
我觉得这个建议很好,在这篇文章的末尾处,增加了第 001 号至 013 号分析思维模型的名称和链接,方便你选择查看自己感兴趣的模型。
据粗略估计,分析思维模型超过 100 种,但是按照二八法则,在实际工作中,常用的模型应该不超过 20 种。
按照要事优先的原则,我计划在精选大约 20 种分析思维模型之后,开始考虑把重心放在模型的实践应用上面。以后再根据实际情况,适当进行增加和补充,这将是一个长期的过程。
今天介绍第 014 号分析思维模型:本福特分析模型。
1. 模型介绍
20 世纪 20 年代,物理学家弗兰克·本福特发现,科学研究和工程设计中遇到的数据,有 30% 左右都以 1 为首位数。
此后 10 年,本福特坚持不懈地探索这个现象,通过举一反三,发现更多符合该规律的数据,比如网球得分、股票价格、河流长度、原子量、电费单等等,全都有着相同的模式。
本福特这种孜孜不倦的精神,值得我们学习。
1938 年,他推导出一套精确的计算公式:
其中 = 1~9,根据这个公式,就能计算出每个首位数的比例如下:
本福特是以非零数字为首位数,所以 0 不包括在内,例如 126 和 0.0126 的第一个数字都是 1。
需要注意的是,有些数据并不适用于本福特定律,例如:电话号码、邮政编码、年龄、体重、智商,等等。
2. 应用举例
下面以 Tableau 自带的世界指标数据为例,验证世界各地区的 GDP 首位数是否符合本福特分析模型。
(1)打开 Tableau 自带的【世界发展指标】数据
(2)创建计算字段【GDP首位数】,输入公式:LEFT(STR([GDP]),1)
(3)把【GDP首位数】拖至【列】,把【记录数】拖至【行】,下拉选择【快速表计算】--【合计百分比】,在【筛选器】中排除 Null 值之后,得到 GDP 首位数的比例分布如下:
可以看出,世界各地区的 GDP 数据基本符合本福特分析模型。
(4)为了更加直观地进行验证,我们创建一个计算字段【本福特参考比例】,输入公式:LOG(1+1/INT([GDP首位数]))
(5)把【本福特参考比例】拖到【详细信息】标记中,更改度量为【平均值】。
(6)切换到【分析】窗格,把【分布区间】拖到画布的【单元格】中。
(7)把【计算-值】中的百分比改成 80,100,120,并选择【平均值(本福特参考比例)】。
(8)设置参考区间的格式,标签和线设置为【无】,向下填充为【蓝色】。
(9)点击确定后,可以看出,GDP 首位数的比例,均介于本福特参考比例的 80% ~ 120% 之间。
本福特分析模型可以用来发现问题,但并不能以此作为确凿的证据,因为本福特分析模型只是统计上的一种规律,并没有经过严格的证明,而且有其适用的范围。
比如说,跨度较小的数据一般不符合本福特分析模型。
在世界指标数据中有一列:开业天数,最大值不超过 700 天,按照上面的步骤,首位数分布如下:
可以看出,其中数字 3、5、6 都不符合本福特分析模型。
利用本福特分析模型,我们可以发现可疑的数据,通过大胆假设,小心求证,探究数据背后隐藏的信息,从而帮助我们更好地解决问题。
虽然本福特分析模型目前无法确凿地证明,但是先发现一些数据的规律,然后再来找到数据背后可能的原因,而这正是模型的力量和魅力所在。
比如说,对于上市公司的财务数据,我们可以应用本福特分析模型去验证一下,如果发现首位数的比例严重偏离模型,那么就有理由去怀疑财务数据造假,再通过调查取证等方法,去验证我们的假设。
最后的话
分析思维模型,是对现实世界的抽象和简化,它的价值是能够重新定义问题,从而找到更高效的解决方案。
统计学家乔治·博克斯有一句名言:所有的模型都是错误的,但有些是有用的。
应用分析思维模型的时候,我们要保持警惕,不要被数据或模型所误导。
如果数据或模型应用不当,那么就像开车时看一个不准的仪表盘,对司机来说,错误的速度数据,比没有数据更危险,后果不堪设想。
如果数据和模型应用得当,那么就像看病时配备先进的仪器,利用正确的数据和经验,能帮助我们找到真正的病因。
犯错并不在于数据或模型本身,而在于使用数据和模型的人。
数据和模型的意义,并不是进行无数次高深的数学计算,而是在于更好地洞察现象背后的成因。
看完《人生算法》的序言之后,我相信:只要是能够量化的事物,就能用算法和分析思维模型去优化它。
用分析的视角、概率的思维、模型的算法,去解决工作和生活中的各种难题,这是我正在探索的一条路。
努力去做那些大概率对人生有益的事,比如读书、写作、利他。
避开那些小概率但致命的风险,比如赌博、飙车、害人。